1
对比数据利用范式:标注谱
EvoClass-AI003第10讲
00:00

对比数据利用范式:标注谱

机器学习模型的成功部署,关键取决于标注数据的可得性、质量与成本。在人工标注昂贵、不可行或高度专业化的环境中,传统范式会变得低效甚至完全失效。我们引入标注谱,根据信息利用方式的不同,区分出三种核心方法:监督学习(SL)无监督学习(UL)以及半监督学习(SSL)

1. 监督学习(SL):高保真度,高成本

监督学习在每个输入 $X$ 都明确对应一个已知真实标签 $Y$ 的数据集上运行。尽管该方法通常能为分类或回归任务提供最高的预测准确率,但其对密集且高质量标注数据的依赖使其资源消耗巨大。当标注样本稀缺时,性能会急剧下降,导致该范式脆弱不堪,对于大规模、持续演化的数据集往往难以承受经济成本。

2. 无监督学习(UL):潜在结构发现

无监督学习仅在未标注数据 $D = \{X_1, X_2, ..., X_n\}$ 上运行。其目标是推断数据流形中的内在结构、底层概率分布、密度或有意义的表示。主要应用包括聚类、流形学习和表示学习。无监督学习在预处理和特征工程方面极为有效,无需外部人工干预即可提供有价值的洞见。

问题 1
哪种学习范式专门设计用于通过利用大量未标注数据来缓解对昂贵人工标注数据的高度依赖?
监督学习
无监督学习
半监督学习
强化学习
问题 2
如果一个模型的主要任务是降维(例如,寻找主成分)或聚类,哪种范式被普遍采用?
监督学习
半监督学习
无监督学习
迁移学习
挑战:定义半监督学习的目标
构建联合损失函数的概念
与仅基于标注数据保真度优化的监督学习(SL)不同,半监督学习(SSL)需要一种平衡的优化策略。总损失必须同时捕捉在标注集上的预测准确率,并在未标注集上强制执行一致性(例如平滑性或低密度分离)。

给定:$D_L$:标注数据。$D_U$:未标注数据。$\mathcal{L}_{SL}$:监督损失函数。$\mathcal{L}_{Consistency}$:在 $D_U$ 上强制预测平滑性的损失。
步骤 1
写出总优化目标 $\mathcal{L}_{SSL}$ 的通用形式,其中包含一个权重系数 $\lambda$,用于控制未标注一致性组件的影响。
解答:
半监督学习总损失的概念形式是两个分量的加权和:$\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$。标量 $\lambda$ 控制着标签保真度与结构依赖性之间的权衡。